29 research outputs found

    Una generalización del teorema de proyección de Marstrand

    Get PDF
    Marstrand cuantificó la dimensión de Hausdorff de (casi todas) las proyecciones ortogonales de un conjunto analítico. Recientemente este resultado ha sido generalizado por Lutz y Stull para algunos casos no analíticos, utilizando en su demostración la dimensión efectiva y el principio de punto a conjunto. La dimensión efectiva tiene sus raíces en la computabilidad y la teoría de la información y en este artículo introducimos sus principales ideas a través de la demostración de Lutz y Stull

    LDDMM y GANs: Redes Generativas Antagónicas para Registro Difeomorfico.

    Get PDF
    El Registro Difeomorfico de imágenes es un problema clave para muchas aplicaciones de la Anatomía Computacional. Tradicionalmente, el registro deformable de imagen ha sido formulado como un problema variacional, resoluble mediante costosos métodos de optimización numérica. En la última década, contribuciones en la forma de nuevos métodos basados en formulaciones tradicionales están decreciendo, mientras que más modelos basados en Aprendizaje profundo están siendo desarrollados para aprender registros deformables de imágenes. En este trabajo contribuimos a esta nueva corriente proponiendo un novedoso método LDDMM para registro difeomorfico de imágenes 3D, basado en redes generativas antagónicas. Combinamos las arquitecturas de generadores y discriminadores con mejores prestaciones en registro deformable con el paradigma LDDMM. Hemos implementado con éxito tres modelos para distintas parametrizaciones de difeomorfismos, los cuales demuestran resultados competitivos en comparación con métodos del estado del arte tanto tradicionales como basados en aprendizaje profundo.<br /

    Comparación de algoritmos de anonimización: Mondrian y Datafly

    Get PDF
    El presente trabajo muestra una comparación de dos algoritmos para lograr la k-anonimización de un conjunto de datos. El primero es Datafly (1997-1998), un algoritmo heurístico cuyas principales herramientas son la generalización y la supresión de tuplas. El segundo algoritmo es Mondrian (2005), de desarrollo posterior, que basa su estrategia en la partición multidimensional de los datos, perdiendo en cierto modo el clásico enfoque tabular (filas-individuos y columnas-atributos). Ambos algoritmos se han implementado desde cero, en un mismo lenguaje de programación (Java) y siguiendo lo más fielmente posible la idea expresada en los trabajos originales. Todo ello para poder realizar una comparación lo más justa posible. Como ambos algoritmos tienen algunas partes sin detallar, se han tomado ciertas decisiones de diseño e implementación que podrían afectar a la comparación, por ello se describen en este trabajo para que se pueda tener en cuenta a la hora de sacar las conclusiones oportunas. Entre las medidas utilizadas están: el coste temporal asintótico, el número de combinaciones totales finales, la k-anonimización media lograda y la varianza respecto a dicha media. No se ha tenido en cuenta en la comparativa el tiempo medido durante las pruebas, ya que se han ejecutado en una máquina multitarea y la carga de la misma podría afectar a la medición por ello se puede considerar una medida menos normalizada que las indicadas. Cabe destacar el diseño e implementación de varios scripts para la herramienta MATLAB capaces de generar conjuntos de datos sintéticos con ciertas características modificables y para representar las estadísticas de los resultados obtenidos mediante gráficas. Tras las pruebas realizadas se ha podido observar como Mondrian consigue mejores resultados en general, y con mayor regularidad de tuplas en cada una de las combinaciones finales. Sin embargo, Datafly a pesar de ser uno de los primeros algoritmos de k-anonimización consigue acercarse a los resultados de Mondrian en algunos de los conjuntos de datos, dependiendo de los valores y la distribución de estos

    ZPERF: una familia de hash perfecto eficiente y de tamaño casi mínimo.

    Get PDF
    Implementación de una nueva y moderna forma de generar Familias de Hashes Perfectos en forma de Códigos Lineales, como se describe en un artículo escrito por los matemáticos Chaoping Xing y Chen Yuan, que poseen un rate menor con respecto a otros métodos parecidos. También se ha procesado el tiempo de cómputo de generación de estos códigos al igual que su rate de forma experimental, elementos que el artículo original no atacaba.<br /

    Aplicación de las 2 estructuras a las gramáticas del lenguaje humano y representación gráfica de ambas

    Get PDF
    La teoría de las 2-estructuras [5] proporciona una infraestructura matemática para la descomposición y la transformación de grafos. Se trata de un formalismo muy potente y robusto que permite representar múltiples grafos en una sola estructura algebraica, una 2-estructura, y derivar de ella una descomposición única en 2-estructuras más simples. En este proyecto se ha llevado a cabo su estudio con dos finalidades:El diseño y la implementación de un paquete de software que sistematice el análisis, la transformación y la visualización de las principales estructuras involucradas en la teoría de las 2-estructuras. La investigación y el desarrollo de posibles aplicaciones de las 2-estructuras a las gramáticas usadas en el procesamiento del lenguaje humano (lenguaje natural).El lenguaje natural es casi en cualquier aspecto más complejo de lo esperado [6]. La sintaxis de muchos idiomas incluye reglas gramaticales que son sensibles al contexto, fenómenos cuyo procesado está muy lejos de tener soluciones eficientes (recordemos que los compiladores de lenguajes de programación sólo procesan un subconjunto muy simple de las gramáticas completamente libres del contexto y que el procesado de gramáticas sensibles al contexto es en general inviable). Las gramáticas suavemente sensibles al contexto (Mildly Context Sensitive Grammars, MCSG) pretenden capturar la sintaxis del lenguaje natural y conseguir su procesado eficiente [7,9]. Entre los lenguajes que describen estas gramáticas encontramos una subclase de gran interés por los siguientes tres motivos. Los lenguajes que contiene capturan un amplio espectro de las dependencias del lenguaje natural, son reconocibles en tiempo polinómico y existen cuatro formalismos independientes entre sí que los generan [8]. Son los lenguajes descritos por las gramáticas de adjunción de árboles (Tree Adjoining Grammars, TAG), las gramáticas de núcleo (Head Grammars, HG), las gramáticas lineales de índices (Linear Indexed Grammars, LIG) y las gramáticas categoriales combinatorias (Combinatory Categorial Grammars, CCG). En este trabajo se presentan dos resultados producto de la investigación sobre la aplicación de las 2-estructuras a algunas de las gramáticas mencionadas: Una extensión de las HG que asocia explícitamente un árbol derivado a las cadenas generadas apoyándose en las bases de las 2-estructuras. Un algoritmo que genera una gramática TAG a partir de una frase con dependencias anidadas y cruzadas (las capturables por el formalismo)

    Molecular phylogenetic analysis: design and implementation of scalable and reliable algorithms and verification of phylogenetic properties

    Get PDF
    El término bioinformática tiene muchas acepciones, una gran parte referentes a la bioinformática molecular: el conjunto de métodos matemáticos, estadísticos y computacionales que tienen como objetivo dar solución a problemas biológicos, haciendo uso exclusivamente de las secuencias de ADN, ARN y proteínas y su información asociada. La filogenética es el área de la bioinformática encargada del estudio de la relación evolutiva entre organismos de la misma o distintas especies. Al igual que sucedía con la definición anterior, los trabajos realizados a lo largo de esta tesis se centran en la filogenética molecular: la rama de la filogenética que analiza las mutaciones hereditarias en secuencias biológicas (principalmente ADN) para establecer dicha relación evolutiva. El resultado de este análisis se plasma en un árbol evolutivo o filogenia. Una filogenia suele representarse como un árbol con raíz, normalmente binario, en el que las hojas simbolizan los organismos existentes actualmente y, la raíz, su ancestro común. Cada nodo interno representa una mutación que ha dado lugar a una división en la clasificación de los descendientes. Las filogenias se construyen mediante procesos de inferencia en base a la información disponible, que pertenece mayoritariamente a organismos existentes hoy en día. La complejidad de este problema se ha visto reflejada en la clasificación de la mayoría de métodos propuestos para su solución como NP-duros [1-3].El caso real de aplicación de esta tesis ha sido el ADN mitocondrial. Este tipo de secuencias biológicas es relevante debido a que tiene un alto índice de mutación, por lo que incluso filogenias de organismos muy cercanos evolutivamente proporcionan datos significativos para la comunidad biológica. Además, varias mutaciones del ADN mitocondrial humano se han relacionado directamente con enfermedad y patogenias, la mayoría mortales en individuos no natos o de corta edad. En la actualidad hay más de 30000 secuencias disponibles de ADN mitocondrial humano, lo que, además de su utilidad científica, ha permitido el análisis de rendimiento de nuestras contribuciones para datos masivos (Big Data). La reciente incorporación de la bioinformática en la categoría Big Data viene respaldada por la mejora de las técnicas de digitalización de secuencias biológicas que sucedió a principios del siglo 21 [4]. Este cambio aumentó drásticamente el número de secuencias disponibles. Por ejemplo, el número de secuencias de ADN mitocondrial humano pasó de duplicarse cada cuatro años, a hacerlo en menos de dos. Por ello, un gran número de métodos y herramientas usados hasta entonces han quedado obsoletos al no ser capaces de procesar eficientemente estos nuevos volúmenes de datos.Este es motivo por el que todas las aportaciones de esta tesis han sido desarrolladas para poder tratar grandes volúmenes de datos. La contribución principal de esta tesis es un framework que permite diseñar y ejecutar automáticamente flujos de trabajo para la inferencia filogenética: PhyloFlow [5-7]. Su creación fue promovida por el hecho de que la mayoría de sistemas de inferencia filogenética existentes tienen un flujo de trabajo fijo y no se pueden modificar ni las herramientas software que los componen ni sus parámetros. Esta decisión puede afectar negativamente a la precisión del resultado si el flujo del sistema o alguno de sus componentes no está adaptado a la información biológica que se va a utilizar como entrada. Por ello, PhyloFlow incorpora un proceso de configuración que permite seleccionar tanto cada uno de los procesos que formarán parte del sistema final, como las herramientas y métodos específicos y sus parámetros. Se han incluido consejos y opciones por defecto durante el proceso de configuración para facilitar su uso, sobre todo a usuarios nóveles. Además, nuestro framework permite la ejecución desatendida de los sistemas filogenéticos generados, tanto en ordenadores de sobremesa como en plataformas hardware (clusters, computación en la nube, etc.). Finalmente, se han evaluado las capacidades de PhyloFlow tanto en la reproducción de sistemas de inferencia filogenética publicados anteriormente como en la creación de sistemas orientados a problemas intensivos como el de inferencia del ADN mitocondrial humano. Los resultados muestran que nuestro framework no solo es capaz de realizar los retos planteados, sino que, en el caso de la replicación de sistemas, la posibilidad de configurar cada elemento que los componen mejora ampliamente su aplicabilidad.Durante la implementación de PhyloFlow descubrimos varias carencias importantes en algunas bibliotecas software actuales que dificultaron la integración y gestión de las herramientas filogenéticas. Por este motivo se decidió crear la primera biblioteca software en Python para estudios de filogenética molecular: MEvoLib [8]. Esta biblioteca ha sido diseñada para proveer una sola interfaz para los conjuntos de herramientas software orientados al mismo proceso, como el multialineamiento o la inferencia de filogenias. MEvoLib incluye además configuraciones por defecto y métodos que hacen uso de conocimiento biológico específico para mejorar su precisión, adaptándose a las necesidades de cada tipo de usuario. Como última característica relevante, se ha incorporado un proceso de conversión de formatos para los ficheros de entrada y salida de cada interfaz, de forma que, si la herramienta seleccionada no soporta dicho formato, este es adaptado automáticamente. Esta propiedad facilita el uso e integración de MEvoLib en scripts y herramientas software.El estudio del caso de aplicación de PhyloFlow al ADN mitocondrial humano ha expuesto los elevados costes tanto computacionales como económicos asociados a la inferencia de grandes filogenias. Por ello, sistemas como PhyloTree [9], que infiere un tipo especial de filogenias de ADN mitocondrial humano, recalculan sus resultados con una frecuencia máxima anual. Sin embargo, como ya hemos comentado anteriormente, las técnicas de secuenciación actuales permiten la incorporación de cientos o incluso miles de secuencias biológicas nuevas cada mes. Este desfase entre productor y consumidor hace que dichas filogenias queden desactualizadas en unos pocos meses. Para solucionar este problema hemos diseñado un nuevo algoritmo que permite la actualización de una filogenia mediante la incorporación iterativa de nuevas secuencias: PHYSER [10]. Además, la propia información evolutiva se utiliza para detectar posibles mutaciones introducidas artificialmente por el proceso de secuenciación, inexistentes en la secuencia original. Las pruebas realizadas con ADN mitocondrial han probado su eficacia y eficiencia, con un coste temporal por secuencia inferior a los 20 segundos.El desarrollo de nuevas herramientas para el análisis de filogenias también ha sido una parte importante de esta tesis. En concreto, se han realizado dos aportaciones principales en este aspecto: PhyloViewer [11] y una herramienta para el análisis de la conservación [12]. PhyloViewer es un visualizador de filogenias extensivas, es decir, filogenias que poseen al menos un millar de hojas. Esta herramienta aporta una novedosa interfaz en la que se muestra el nodo seleccionado y sus nodos hijo, así como toda la información asociada a cada uno de ellos: identificador, secuencia biológica, ... Esta decisión de diseño ha sido orientada a evitar el habitual “borrón” que se produce en la mayoría de herramientas de visualización al mostrar este tipo de filogenias enteras por pantalla. Además, se ha desarrollado en una arquitectura clienteservidor, con lo que el procesamiento de la filogenia se realiza una única vez por parte el servidor. Así, se ha conseguido reducir significativamente los tiempos de carga y acceso por parte del cliente. Por otro lado, la aportación principal de nuestra herramienta para el análisis de la conservación se basa en la paralelización de los métodos clásicos aplicados en este campo, alcanzando speed-ups cercanos al teórico sin pérdida de precisión. Esto ha sido posible gracias a la implementación de dichos métodos desde cero, incorporando la paralelización a nivel de instrucción, en vez de paralelizar implementaciones existentes. Como resultado, nuestra herramienta genera un informe que contiene las conclusiones del análisis de conservación realizado. El usuario puede introducir un umbral de conservación para que el informe destaque solo aquellas posiciones que no lo cumplan. Además, existen dos tipos de informe con distinto nivel de detalle. Ambos se han diseñado para que sean comprensibles y útiles para los usuarios.Finalmente, se ha diseñado e implementado un predictor de mutaciones patógenas en ADN mitocondrial desarollado en máquinas de vectores de soporte (SVM): Mitoclass.1 [13]. Se trata del primer predictor para este tipo de secuencias biológicas. Tanto es así, que ha sido necesario crear el primer repositorio de mutaciones patógenas conocidas, mdmv.1, para poder entrenar y evaluar nuestro predictor. Se ha demostrado que Mitoclass.1 mejora la clasificación de las mutaciones frente a los predictores más conocidos y utilizados, todos ellos orientados al estudio de patogenicidad en ADN nuclear. Este éxito radica en la novedosa combinación de propiedades a evaluar por cada mutación en el proceso de clasificación. Además, otro factor a destacar es el uso de SVM frente a otras alternativas, que han sido probadas y descartadas debido a su menor capacidad de predicción para nuestro caso de aplicación.REFERENCIAS[1] L. Wang and T. Jiang, “On the complexity of multiple sequence alignment,” Journal of computational biology, vol. 1, no. 4, pp. 337–348, 1994.[2] W. H. E. Day, D. S. Johnson, and D. Sankoff, “The Computational Complexity of Inferring Rooted Phylogenies by Parsimony,” Mathematical Biosciences, vol. 81, no. 1, pp. 33–42, 1986.[3] S. Roch, “A short proof that phylogenetic tree reconstruction by maximum likelihood is hard,” IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), vol. 3, no. 1, p. 92, 2006.[4] E. R. Mardis, “The impact of next-generation sequencing technology on genetics,” Trends in genetics, vol. 24, no. 3, pp. 133–141, 2008.[5] J. Álvarez-Jarreta, G. de Miguel Casado, and E. Mayordomo, “PhyloFlow: A Fully Customizable and Automatic Workflow for Phylogeny Estimation,” in ECCB 2014, 2014.[6] J. Álvarez-Jarreta, G. de Miguel Casado, and E. Mayordomo, “PhyloFlow: A Fully Customizable and Automatic Workflow for Phylogenetic Reconstruction,” in IEEE International Conference on Bioinformatics and Biomedicine (BIBM), pp. 1–7, IEEE, 2014.[7] J. Álvarez, R. Blanco, and E. Mayordomo, “Workflows with Model Selection: A Multilocus Approach to Phylogenetic Analysis,” in 5th International Conference on Practical Applications of Computational Biology & Bioinformatics (PACBB 2011), vol. 93 of Advances in Intelligent and Soft Computing, pp. 39–47, Springer Berlin Heidelberg, 2011.[8] J. Álvarez-Jarreta and E. Ruiz-Pesini, “MEvoLib v1.0: the First Molecular Evolution Library for Python,” BMC Bioinformatics, vol. 17, no. 436, pp. 1–8, 2016.[9] M. van Oven and M. Kayser, “Updated comprehensive phylogenetic tree of global human mitochondrial DNA variation,” Human Mutation, vol. 30, no. 2, pp. E386–E394, 2009.[10] J. Álvarez-Jarreta, E. Mayordomo, and E. Ruiz-Pesini, “PHYSER: An Algorithm to Detect Sequencing Errors from Phylogenetic Information,” in 6th International Conference on Practical Applications of Computational Biology & Bioinformatics (PACBB 2012), pp. 105–112, 2012.[11] J. Álvarez-Jarreta and G. de Miguel Casado, “PhyloViewer: A Phylogenetic Tree Viewer for Extense Phylogenies,” in ECCB 2014, 2014.[12] F. Merino-Casallo, J. Álvarez-Jarreta, and E. Mayordomo, “Conservation in mitochondrial DNA: Parallelized estimation and alignment influence,” in 2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM 2015), pp. 1434–1440, IEEE, 2015.[13] A. Martín-Navarro, A. Gaudioso-Simón, J. Álvarez-Jarreta, J. Montoya, E. Mayordomo, and E. Ruiz-Pesini, “Machine learning classifier for identification of damaging missense mutations exclusive to human mitochondrial DNA-encoded polypeptides,” BMC Bioinformatics, vol. 18, no. 158, pp. 1–11, 2017.<br /

    Realización de un estudio de asociación genómica en el repositorio público ADNI

    Get PDF
    Los estudios de asociación del genoma completo (GWAS) pertenecen a un campo en desarollo muy explotado en los últimos años. En concreto, este método ha intentado asociar la enfermedad de ALzheimer con su base genética, especialmente con ciertos SNPs, mediante el uso fenotipos cuantitativos como el volumen de estructuras cerebrales (que se sabe disminuyen con el progreso de esta infermedad). Algunas iniciativas como ADNI (Alzheimer’s Disease Neuroimaging Initiative) se establecieron para probar si marcadores anatómicos o biológicos (desde Imágenes de Resonancia Magnética (MRI) hasta Tomografı́as por emisión de positrones (PET)), la información genética, clı́nica o análisis neuropsicológicos se pueden combinar para medir la progresión del Alzheimer. En la última década, la base de datos de ADNI ha aumentado considerablemente, dando lugar a las cohortes ADNI1, ADNIGO y ADNI2. Aunque se han llevado a cabo algunos GWAS con subpoblaciones de ADNI1, que sepamos no se han realizado con todo el proyecto de ADNI1 ni el resto de cohortes. En esta tesis se trata de estudiar qué SNPs están preservados de forma consistente en los diferentes GWAS de las cohortes, de forma que se haga posible la reproducción de los resultados previos del estudio en ADNI Hippocampal Atrophy as a Quantitative Trait in a Genome-Wide Association Study Identifying Novel Susceptibility Genes for Alzheimer’s Disease (Potkin et al. 2009). También tiene por objetivo descubrir nuevos posibles genes que representen factores de riesgo de padecer Alzheimer. Estos objetivos han sido abordados mediante la realización de GWAS para las cohortes ADNI1 y ADNI2 por separado, para la población conjunta de ADNI1 y ADNI2, ası́ como para subpoblaciones randomizadas. Los resultados muestran en varios SNPs una asociación positiva con el volumen de hipocampo en el análisis de ADNI1 y en la población total. Se trata de dos SNPs ya relacionados con ALzheimer: rs429358 del gen APOE y rs2075650 del gen TOMM40. Sin embargo, esta relación no se encontró en ADNI2. Se podrı́a hipotetizar que la razón de este resultado reside en la variabilidad encontrada en la asociación dependiendo del tamaño muestral. Esta hipótesis estarı́a respaldada teniendo en cuenta los resultados que se obtienen para el 50% de la población randomizada (ADNI2 representa aproximadamente el 50% de la población total). Sin embargo, se necesitarı́a profundizar en este aspecto para poder confirmar la hipótesis. Además, en este estudio se encontró una leve asociación en dos SNPs ya relacionados con otros transtornos mentales

    Predicción del diagnóstico de la enfermedad de Alzheimer mediante deep-learning en imágenes 18F-FDG PET

    Get PDF
    La enfermedad de Alzheimer es una enfermedad neurodegenerativa que afectaa más de 50 millones de personas en todo el mundo. Es la forma más común dedemencia, con un 60-70% de los casos. Actualmente no existe una cura efectiva paraella, aunque sí existen algunos tratamientos que pueden ser eficaces si se aplican enlas fases tempranas de la enfermedad, permitiendo retrasar su evolución. Por ello, undiagnóstico preciso y con suficiente antelación es fundamental para poder tomarmedidas preventivas. El gran auge del deep-learning en los últimos años ha permitidoel desarrollo de diferentes sistemas de predicción que ayuden al diagnóstico de laenfermedad de Alzheimer a partir de imágenes cerebrales.El principal objetivo de este Trabajo de Fin de Grado es el desarrollo de unsistema de aprendizaje profundo basado en redes neuronales convolucionales que, apartir de imágenes 18F-FDG PET del cerebro sea capaz de predecir el diagnóstico finalentre pacientes enfermos (AD), con deterioro cognitivo leve (MCI) o cognitivamentenormales (CN). La obtención de las imágenes para el entrenamiento y test de la red sehan obtenido del repositorio de la Alzheimer's Disease Neuroimaging Initiative (ADNI).Se han desarrollado dos sistemas con dos arquitecturas diferentes: la originalpropuesta en (Ding et al., ,2019) y una mejora posterior de la misma propuesta en la literatura en uncontexto diferente. Las imágenes utilizadas son 3D mientras que las arquitecturasutilizadas se basan en convoluciones 2D. Por este motivo, las imágenes de 18F-FDG PEThan sido preprocesadas antes de ser cargadas en la red. Para el entrenamiento de lossistemas se ha hecho uso de las técnicas de transfer-learning y fine-tuning. Laimplementación del sistema y el preprocesado de las imágenes se ha realizado enPython 3.6.9, mediante el uso de las librerías de Keras (versión 2.2.4) y TensorFlow(versión 1.12.0). El entrenamiento y test de la red se ha realizado sobre una tarjetagráfica Titan RTX de 24 GBs de VRAM.Los experimentos realizados muestran que, ambos sistemas desarrolladospueden llegar a predecir AD hasta 66 meses (5 años y medio) antes del diagnósticofinal. El sistema basado en la arquitectura propuesta en (Ding et al., ,2019) es capaz de predecir eldiagnóstico final de Alzheimer con una precisión del 77.0% y un AUC de 0.84. Se haencontrado que el sistema entrenado con los pacientes de AD y CN es capaz dediagnosticar la enfermedad con una precisión del 87.5% y un AUC de 0.97 y se haanalizado cómo afecta en el rendimiento del sistema la introducción de datos depacientes con MCI. Con la arquitectura más moderna se ha conseguido mejorar losresultados con una precisión de 84.6% y un AUC de 0.89 en la predicción deldiagnóstico final de Alzheimer. Finalmente, se han realizado distintos análisis de lasredes neuronales convolucionales desarrolladas para comprender los puntos fuertes ydébiles de los modelos obtenidos.<br /

    Estudio y análisis de métodos de inferencia filogenética: del ADN a las proteínas

    Get PDF
    Los principales objetivos de este proyecto fin de carrera son la traducción de ADN a proteínas, la construcción de árboles filogenéticos utilizando proteínas y su comparación con los árboles construidos directamente a partir de secuencias completas de ADN. La filogenética es la disciplina que estudia las relaciones evolutivas entre distintos individuos o especies. El ADN mitocondrial es un tipo especial de ADN que está almacenado en unos orgánulos de la célula llamados mitocondrias. Parte del ADN mitocondrial codifica proteínas. Los árboles filogenéticos se construyen utilizando modelos matemáticos que intentan explicar la evolución real de los individuos. En el caso tratado de ADN mitocondrial, las filogenias son especialmente útiles a la hora de diagnosticar las mutaciones de un paciente como patógenas. Para poder construir estos árboles es necesario identificar las proteínas dentro de la secuencia de ADN mitocondrial y extraer su información. Debido a la falta de homogeneidad en las bases de datos donde se encuentran almacenadas las secuencias es necesaria una primera fase de procesamiento para así poder localizar las proteínas. La comparación de árboles filogenéticos es un tema abierto y candente en la filogenia computacional para el que no se conocen en la actualidad soluciones satisfactorias, por lo que las herramientas existentes no permiten un análisis profundo de los resultados. Futuros desarrollos en el área de comparación de filogenias serán el punto de partida de posteriores investigaciones a partir de las herramientas y resultados obtenidos en este PFC. En este proyecto se trabaja con árboles filogenéticos construidos mediante proteínas, un tema novedoso en investigación por lo que se espera publicar los resultados en breve y que este proyecto sea el punto de partida de futuros estudios. Durante todo el proyecto se ha tenido que dedicar mucho tiempo a la formación en temas de índole biológica. También se ha usado gran cantidad de herramientas bioinformáticas. Se ha conseguido el objetivo de construir los árboles correspondientes a un total de 4.824 secuencias, un número considerado alto en filogenia computacional dado el gran coste computacional de los métodos empleados. Tras compararlos con los árboles de ADN disponibles se ha llegado a la conclusión que son muy distintos, hecho que puede tener varias explicaciones biológicas y que da pie a nuevas investigaciones para dar explicaciones a este suceso

    Asociación de haplotipos mitocondriales con biomarcadores estructurales de MRI para la caracterización de la enfermedad de Alzheimer

    Get PDF
    El desconocimiento de los factores que provocan la enfermedad de Alzheimersigue siendo una dificultad para su diagnóstico. No obstante, existe un ciertoconsenso en que dicha enfermedad tiene un componente genético. Numerososestudios tratan de encontrar relaciones entre variaciones en el genoma de lossujetos y marcadores indicativos del desarrollo de la enfermedad. Entre estosestudios existe un número de ellos que se centran en variaciones del ADNmitocondrial, aunque actualmente aún no existe un consenso generalizado sobre elpapel que este tipo de ADN puede desempeñar en la enfermedad. En este Trabajode Fin de Grado se ha realizado un estudio mediante diversas técnicas deaprendizaje automático tratando de replicar los resultados propuestos en el trabajode investigación de P.G. Ridge. Dichas técnicas podrían ser divididas en modelosde selección de variables como Lasso, Elastic-net y Group Lasso que nos hanpermitido seleccionar aquellas variaciones genéticas que estén más relacionadascon la enfermedad y modelos de regresión. En este trabajo se ha utilizado elmodelo de máquinas de vectores de soporte (SVM) como modelo de regresión.Mediante este modelo se ha podido estudiar la evolución del error en función de lasvariaciones incluidas en él. Estas dos clases de modelos, en su conjunto, hanpermitido evaluar las relaciones entre los datos genéticos utilizados y el fenotipoestudiado, que en este caso es la atrofia del hipocampo izquierdo. Los datos delfenotipo han sido extraídos de distintas lecturas de imagen por resonanciamagnética (MRI) que miden el volumen del hipocampo, mientras que los datosgenéticos pertenecen al genotipado del ADN mitocondrial de diversos sujetos.Estos datos han sido extraídos del portal ADNI (Alzheimer's DiseaseNeuroimaging Initiative), una iniciativa iniciada en 2004 con el objetivo depermitir a investigadores de todo el mundo compartir información con el fin deavanzar en la investigación de esta enfermedad.<br /
    corecore